可变奖励

原文:Variable reward - supermemo.guru

可变奖励(或不可预测的奖励可变程序的奖励)是一种间歇性提供的奖励。强化程序的设计通常是为了使行为最大化。可变比率程序可以在不可预测的反应次数后提供强化物(例如,以 1:4 的平均比例)。可变时距程序会使用不可预测的间隔(例如,平均为 60 秒)。关于可变奖励的力量,一个流行的例子是对赌博的成瘾。该领域的开创性研究是由 B.F. Skinner 进行的。

另见: